打破“镜子”:大数据需要更批判性的分析 | 社会科学报
点击社会科学报关注我们
“数字化生存”无论在个体还是在社会经济层面都从预言走向现实。云计算、物联网、5G技术以及人工智能纷纷从研究前沿转向近距离生活。“大数据时代”的来临使线上与线下的界限变得模糊起来,每一点私人或社会性痕迹都以数据的形式被捕捉和记录。一种乐观性的看法倾向于将这种覆盖全球的数字化网络所负载的信息看作共享性的“一般数据”而加以赞扬,并将其与作为基础的、“去中心化”的互联网系统一起视之为新的自由的可能性。事实真的如此吗?对数据的这种过高期待是否有可能回落到更具有批判性的分析上来呢?
原文 :《“大数据”需要更具有批判性的分析》
作者 | 南京师范大学哲学系教授 吴静
图片 | 网络
从“数据挖掘”到“事实挖掘”
当“大数据时代”的称谓越来越取代“信息时代”而成为时下一切问题讨论最鲜亮的背景色的时候,人们常常会有一种直观主义的错觉,认为数据等于信息,或者说数据是信息最先进也最优化的表达形式。数据的提取或捕获直接导向目的性,而大数据本身则意味着超大容量信息(或知识)的自然呈现。
实际上,数据并不会自然地产生信息价值,也不必然涉及知识或目的。数据的产生由来已久,甚至早在有电子记录之前就已存在,只是借助于计算机和互联网技术,对海量数据的记录和存储才成为可能。物联网(the internet of things)的出现更使得数据的产生超越传统的范畴,记录个体生活的每一个可能的侧面和细节,从而产生了大量的数据冗余。但数据的收集和分析并不是一个自然而然的无阻力过程,它必须经过被提取、精炼以及再组织,才能有效地呈现出信息。于是,读取数据的能力就成为企业(数据价值的发掘最早体现在商业上)提高竞争力的核心能力,并且这种重要性的进一步彰显也催生出专门从事数据提取和分析的行业。
阿尔都塞在著名的《意识形态与国家意识形态机器》中曾用“质询”(interpellation,也译作“唤问”)来描述语言和主体的建构性在场的关系。“通过我们称之为质询的那种非常明确的活动,在个人中间招募主体(它招募所有的个人)或把个人‘改造’成主体(它改造所有的个人)。”然而,在这一被强烈构架起来的质询场景中,被质询的个人(阿尔都塞戏谑地将其称为“演员”)的立场却并非封闭和固定的,而是在不同的情境(在阿尔都塞那里是意识形态)中条件性地被建构的。数据的被调用过程正是一种与此相类似的运作。然而,略微有所不同的地方在于,与质询对主体的建构过程相逆,数据的意义给予并不是预先被设定好的。数据真正的意义不取决于它的来源方式或本身,而取决于将它与其他数据联系起来的意义承载模型。这一视角提供了理解算法的路径入口,因为构建起数据的意义模型的正是算法。
作为一种被构筑的话语,算法的正确性(更准确地说,是合理性)决定了数据之间的连接合理性是否为真。在不合理的算法之下,数据之间也可能建立起伪联系,这就需要花费更多的时间从经验或其他算法中去验证。因此,对大数据的理解或谈论必须从对数据和算法的本质开始,一个值得也必须被追问的问题产生了:它们的客观存在与事实(或意义)之间存在必然的联系吗?
数据可以用来校准现实吗
热衷于言及大数据时代的人常常认为海量数据足以刻画出“所有时代所有地方的所有信息”。不但电脑、手机和平板电脑与现代通讯线路的无障碍对接,使我们以远程在场的方式与全球发生联系,而且越来越多的智能装备(家庭恒温系统、警报系统、监控系统、智能家居中控、无人驾驶汽车、聊天机器人,甚至可穿戴设备)实现了机器与机器、人与机器的对接。一方面,人比过去任何时代都更接近世界和其他人,另一方面,传统的直接在场与联系的方式被数字化生存改写。线上与线下、实体与数字的边界日益模糊,甚至相互渗透。美团和饿了么了解你的口味偏好和订餐历史,淘宝和京东清楚你的需求类型和消费习惯,移动和电信可以根据你在特定时间内的漫游记录给出你的足迹,搜索引擎知道你的好奇心和最深层的疑问……更有甚者,你一旦离开所在城市踏足外地,你会立刻收到应用软件根据你过去的订房情况给出的酒店参考以及根据你的订餐记录给出的周边餐厅选择!
然而,绝大多数迷恋大数据的使用者并不会意识到数据的这种后结构主义特征,在他们眼中,数据既然来源于日常现实,自然也可以逆向地被还原为现实(或事实)。但事实上,数据的现实源头从来不是它承载的意义,它的意义取决于它的被使用。从这个意义上而言,数据又是一个非表征性的系统,其目的从来都不是对所被记录和提取的现实表面进行还原。算法之所以成为数据的问题式,正在于它作为一种纯粹的外在性对数据进行了统摄,它是数据的使用规则,而非生成规则。算法使得数据和它的来源产生了距离,使用者依照其目的借助算法对数据进行重新编码和提炼。而这产生出另外一种风险,与将数据等同于现实的经验主义做法不同,这种风险来自使用数据对现实进行校准。这一趋势所产生的后果是数字化存在对实体存在的全面渗透,线上线下的界限日益模糊,个体性在不同的方面同时面临被漠视和被增强的双重命运。围绕着数据的占有和使用上的不对称,一方面,一部分人依靠对数据和算法的垄断获得更大的权利,而另一方面,分散的用户却在毫不知情的情况下被剥夺了部分权利。这种情况甚至会愈演愈烈。
有人用“透明人”的概念来描述大数据时代人的生存境况。在不同的算法模型中,数据被无条件地调用,而个体本身却一无所知地缺席着,出现的只有数据。一个有趣的悖论产生了:以统计学意义上的子集进入数据中的个体在商业经营策略中被以一种极度个人化的方式对待。这正是以大数据作为支撑的后信息时代的商业的标志化特征:精准营销。娴熟的玩家通过各种途径提升自己对于客户群数据的获得,以强化自身在充满变数的市场竞争中的反应能力。
表面上看,精准营销似乎以其关怀备至的体贴迎合着主体的每一点哪怕最细微和独特的需要,线上的环境日益变得个性化。但在算法与技术的合谋之下,极度的个性化的所谓“精准营销”不仅提供了精准的产品和服务,也提供了精准的价格:名为“定价优化”的价格歧视政策,诱使有特殊偏好的、易于冲动的消费者以更高的价格为自己埋单。因此,在丹·席勒看来,大数据时代不但不是传统的马克思主义政治经济学问题得到解决的时代,反而促使资本主义的矛盾完成了现代化,而这其中,最新、也最关键性的问题在于算法。它到底扮演了什么样的角色呢?
算法实际上像一面镜子
从表面上看,算法是通过运行计算机程序来运作的,无感情的计算机程序输出的结果要比有感情的人更加客观理性,更加独立公正。可是,算法真的能做到中立和公正吗?事实可能并非如此。与信息表面上的透明性相反,算法一直隐匿在后台,以不可见的“黑箱”状态运行。甚至至今,很多人也并不清楚它的存在和作用。各种应用软件和智能设备负责记录和收集数据,算法则作为数据的管家,按照特定的意图对数据进行筛选和分析。如果说前一过程在今天已经为越来越多的用户察知并警惕,后一过程则是远离人们视野,在暗中悄悄进行。算法是名副其实的“看不见的手”,它和用户唯一的对接方式是结果的输出,而这则被当作由数据和机器共同保证的客观正确性。
然而,算法不是机器自生产出来的,其背后是人,算法本身是人创作出来的。没有任何一个写算法的人能保证自己完全做到客观公正,那么算法的结果又怎能保证客观?很多机构(最显而易见的是商业机构)使用算法的目的之一正是通过算法结果来引导算法用户。算法是人类智慧的产品,算法设计者和实现者的设计意图、认知水平、价值观、精神状态等都会对算法产生影响,人类或者说算法制作者的需求和利益更是决定了算法结果的倾向性。因而,揭开算法的神秘外衣,它和其他所有产品一样,是对某种社会性需求的迎合。不过,与其他消耗性终端产品不一样,在今天的经济结构中,网络与现实界限的相互嵌入使得人们的日常行为不但潜在或显在地受到算法的左右,更日益形成对算法的依赖。于是,算法被设计时的初衷毫无疑问地体现了特定的社会利益结构。
算法实际上像一面镜子,它将社会中业已存在的不平等现象悉数反映出来,并且与现实中的歧视相比,算法歧视还带有明显的技术性特征,即精准性、多元性和隐蔽性。算法对数据分类和筛选的标准更加量化和细微,可能涉及和涵盖个体的一切方面,甚至是偶然性行为。个体被客体化为刻板的数据,其动态和综合的可能性被漠视,而依据某种倾向被暗中评估或引导,甚至毫无申诉的可能。
客观地说,算法的原始数据从根本上而言不可能是完美的。追求客观数据是一种理想和目标,在获得数据的过程中总是存在这样或那样的因素和障碍,以至于影响了数据的客观中立。我们现在号称进入了“大数据”时代,大数据的本意是“海量数据”而并非“全数据”。要获得“全数据”,是一件极其困难的事情。由于机构壁垒、信息安全等因素,只有一部分数据能公开或通过一些途径去获得。数据样本的不完整必然会使算法结果出现以偏概全的问题。除了数据的不完整性,数据的采集质量也不可能是完美的,受限于采集工作者的技术水平、采集设备的可靠与稳定性等因素,更不要说数据造假对数据造成的污染了。
数据和算法程序都是不完美的,那么算法的推论自然也很难做到完全的客观公正。同时,算法作为一整套机器识别的运作规则,其认知方式和人类完全不同。后者可以依据抽象的概念和具体的情境进行思考和做出判断,而算法则主要考量被量化的属性的权重数值。这种识别方式很难对复杂的人类情境进行复原,因此两者之间的偏差就不可避免地会出现。
以大数据作为基础和支撑的数字经济和智能化趋势无疑是这个时代最鲜明、最具有活力的方面之一,而当人类的生活越来越多地依赖于互联网和智能技术的时候,算法这只“看不见的手”所发挥的作用也日益增大。一种健康的发展趋势要求市场和算法面对透明性的挑战,对此,从技术层面到制度层面,我们是否都准备好了呢?
文章为社会科学报“思想工坊”融媒体原创出品,原载于社会科学报第1731期第6版,未经允许禁止转载,文中内容仅代表作者观点,不代表本报立场。
拓展阅读
进入数字转型新阶段,大数据助力解决“城市病” | 社会科学报
关注 | 信息无障碍:弥合“数字鸿沟”,城市转型要“数中有心”